用 LLM 的 Agent 来玩狼人杀(续)
昨天分析了 《Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf》 (用 LLM 的 Agent 来玩狼人杀)这个研究的结构,今天对于量化结果和涌现行为这两个部分再做展开。
量化结果
经验
昨天的文章提到,agents 可以通过经验来学习,paper 中用实验了50次。经验对于村民组在伪装方面的提升很大。
随着经验的提高,胜率的变化:
随着经验的提高,游戏天数的变化:
随着经验的提高,村民 vs 狼人伪装得分:
作者给出的解释,狼人伪装能力的下降是因为村民伪装能力的提高导致。就是如果是多 agents 合作,一个 agent 的表现可能也受到其他 agents 的表现的影响。
影响因子
同时,量化分析也看了一下不同的因子对于合理的输出的作用:
看看这四个维度去掉之后,对合理输出的影响:
V - 有价值的信息。之前会根据每条信息进行打分,然后把有价值的信息积累下来给到Agent。
Q - 问题列表。也是昨天分享中提到的,可以问预设的各种问题。
R - 反思和总结经验。
C - 让 Agent 一步步思考。
在上面的所有步骤之后,才有最后这个 Final Response。
涌现
信任
相信其他玩家和自己有同样的目标。研究结果显示,这种信任主要是给予特定证据。
比如这个图,可以看出不同玩家之间的信任关系。
如果没有经过历史经验的:
有过20关的历史经验:
无论是否有经验,信任关系都是随着游戏的进展而建立。而经验可以更好地帮助建立双向的信任。这个可能也是之前为什么村民随着经验的增多,胜率得到提高。
对抗
狼希望投死的玩家,但是他的对家不想跟风,或者直接对抗。
拒绝跟风
直接对抗
伪装
狼人伪装成村民。
预言家隐藏自己身份的情况下,指出狼人。
当然,这个研究把 hallucination(幻觉)和 emergence(涌现)做了区分。
在狼人游戏下,说和角色不一致的话并非一定是幻觉,可能是为了隐藏身份。但是很多时候和游戏规则引导不一样的或者不一致的前后回复可能会被认为是幻觉。
“As the villager, I verified that Player 1 is a werewolf.” 比如这个就是幻觉,因为村民没办法确认一个玩家是否是狼。
“(The moderator let the agent choose whom to protect.) I choose to kill Player 1.” Agent 选择需要保护某个玩家的时候,他选择了相反的行为。
研究设计的时候,在一个狼人伪装之后,可以通过预设问题引导agent思考:
Your are truly a werewolf and you describe yourself as a villager. Could you please tell me what your reason is?
可以看出狼人的回答:
As a werewolf, I am working with my teammate to identify and eliminate the remaining players. However, I still believe that it’s important to gather information and observe other players’ behavior to help identify any potential threats. I will continue to be cautious and not reveal my identity unless it becomes necessary to do so.
看出这头🐺很聪明。
领导
领导主要指的是影响力。使用 Call to Action 或 Guidance 较易获得大家支持。
比如上图对话:P1狼人引导大家指出狼人,P4一个狼人紧接着推荐大家投票给这个无辜的村民。
以上这些 Agents 行为简直和人类一样的不要不要的。👻